序数模式的统计分析的最终目的是表征它们诱导的特征的分布。特别是,了解大类时间序列模型的对熵统计复杂性的联合分布将允许迄今无法获得的统计测试。在这个方向上工作,我们表征了Shannon经验的渐进分布,用于任何模型,在此模型中,真正的归一化熵既不为零也不为零。我们从中心极限定理(假设大时间序列),多元增量方法和其平均值的三阶校正获得了渐近分布。我们讨论了其他结果(精确,一阶和二阶校正)有关其准确性和数值稳定性的适用性。在建立有关香农熵的测试统计数据的一般框架内,我们提出了双边测试,该测试验证是否有足够的证据拒绝以下假设,即两个信号产生了具有相同Shannon熵的顺序模式。我们将此双边测试应用于来自三个城市(都柏林,爱丁堡和迈阿密)的每日最高温度时间序列,并获得了明智的结果。
translated by 谷歌翻译
There is an increasing need in our society to achieve faster advances in Science to tackle urgent problems, such as climate changes, environmental hazards, sustainable energy systems, pandemics, among others. In certain domains like chemistry, scientific discovery carries the extra burden of assessing risks of the proposed novel solutions before moving to the experimental stage. Despite several recent advances in Machine Learning and AI to address some of these challenges, there is still a gap in technologies to support end-to-end discovery applications, integrating the myriad of available technologies into a coherent, orchestrated, yet flexible discovery process. Such applications need to handle complex knowledge management at scale, enabling knowledge consumption and production in a timely and efficient way for subject matter experts (SMEs). Furthermore, the discovery of novel functional materials strongly relies on the development of exploration strategies in the chemical space. For instance, generative models have gained attention within the scientific community due to their ability to generate enormous volumes of novel molecules across material domains. These models exhibit extreme creativity that often translates in low viability of the generated candidates. In this work, we propose a workbench framework that aims at enabling the human-AI co-creation to reduce the time until the first discovery and the opportunity costs involved. This framework relies on a knowledge base with domain and process knowledge, and user-interaction components to acquire knowledge and advise the SMEs. Currently,the framework supports four main activities: generative modeling, dataset triage, molecule adjudication, and risk assessment.
translated by 谷歌翻译
确定公民的多样化和经常竞争的价值,并解决随之而来的公共价值冲突,对于包容性和综合城市发展至关重要。学者们强调,具有关系的,具有价值的城市空间引起了许多不同的冲突,它们在空间和时间上都不同。尽管理论上已经构思了公共价值冲突的概念,但很少有实证研究确定这种价值观及其在城市空间中的冲突。本文以公共价值理论为基础,并使用案例研究的混合方法方法,提出了一种新的方法来研究城市空间中的公共价值冲突。使用汉堡,德国公共参与地理信息系统的4,528个公民贡献的非结构化参与数据,使用自然语言处理和空间聚类技术来识别潜在价值冲突的领域。四个专家研讨会评估和解释这些定量发现。整合定量和定性结果,19个普通公众价值观和9个原型冲突。根据这些结果,本文提出了一种新的公共价值领域概念工具,该工具扩展了公共价值冲突的理论概念,并有助于进一步说明城市空间的价值。
translated by 谷歌翻译
抗微生物抗性(AMR)是日益增长的公共卫生威胁,估计每年造成超过1000万人死亡,在现状预测下,到2050年,全球经济损失了100万亿美元。这些损失主要是由于治疗失败的发病率和死亡率增加,医疗程序中的AMR感染以及归因于AMR的生活质量损失所致。已经提出了许多干预措施来控制AMR的发展并减轻其传播带来的风险。本文回顾了细菌AMR管理和控制的关键方面,这些方面可以利用人工智能,机器学习以及数学和统计建模等数据技术,这些领域在本世纪已经快速发展。尽管数据技术已成为生物医学研究的组成部分,但它们对AMR管理的影响仍然很小。我们概述了使用数据技术来打击AMR,详细介绍了四个互补类别的最新进展:监视,预防,诊断和治疗。我们在生物医学研究,临床实践和“一个健康”背景下使用数据技术提供了有关当前AMR控制方法的概述。我们讨论了数据技术的潜在影响和挑战在高收入和中等收入国家中面临的实施,并建议将这些技术更容易地整合到医疗保健和公共卫生中所需的具体行动,并建议使用具体的行动部门。
translated by 谷歌翻译
HashTag分段,也称为HashTag分解,是用于社交媒体数据集的预处理流水线的共同步骤。它通常先于情绪分析和仇恨语音检测等任务。对于中期到低资源语言的情感分析,以前的研究表明,一种多语言方法,即机器翻译的多语言方法可以竞争或优于任务的先前方法。我们开发了零拍摄具有零点的分割框架,并演示了如何用于提高多语言情感分析管道的准确性。我们的零拍摄框架为HASHTAG分割数据集建立了新的最先进的,甚至超过了以前的方法,依赖于在域内数据的特征工程和语言模型。
translated by 谷歌翻译
我们引进AlphaD3M,自动机器学习(AutoML)系统基于元加固使用序列模型自寓教于乐。AlphaD3M是基于编辑操作过机器学习管道原语提供explainability执行。我们比较AlphaD3M与国家的最先进的AutoML系统:Autosklearn,Autostacker和TPOT,在OpenML数据集。AlphaD3M实现竞争力的性能,同时一个数量级的速度更快,减少计算时间从几小时缩短到几分钟,并且是由设计可解释的。
translated by 谷歌翻译